Formación de recompensas por ocupación: Mejorando la asignación de crédito para el aprendizaje por refuerzo condicionado a metas fuera de línea
Mejora la asignación de crédito en el aprendizaje por refuerzo con estrategias fuera de línea para maximizar el rendimiento y la eficiencia.